
Rola modelu językowego w agencie AI
Model językowy to "mózg" agenta AI – to on odpowiada za rozumienie języka naturalnego, analizowanie kontekstu, podejmowanie decyzji i generowanie odpowiedzi. Bez modelu językowego agent byłby tylko zestawem sztywnych reguł – z nim staje się inteligentnym systemem zdolnym do elastycznego rozwiązywania problemów.
Do czego służy model językowy w agencie AI?
1. Rozumienie języka naturalnego (NLU – Natural Language Understanding)
Model językowy analizuje tekst i rozumie jego znaczenie, intencję oraz kontekst.
Przykłady:
- Użytkownik pisze: "Chcę sprawdzić, czy ktoś odpowiedział na mojego ostatniego e-maila do działu sprzedaży"
- Model rozumie:
- Akcja: sprawdzenie e-maili
- Kontekst: ostatni wysłany e-mail
- Odbiorca: dział sprzedaży
- Cel: znalezienie odpowiedzi
2. Ekstrakcja informacji
Model potrafi wyciągać konkretne dane z nieustrukturyzowanego tekstu.
Przykłady:
- Z e-maila: "Prosimy o przesłanie faktury na kwotę 2500 zł do 15 grudnia 2025"
- Model wyciąga:
- Typ dokumentu: faktura
- Kwota: 2500 zł
- Termin: 15 grudnia 2025
3. Podejmowanie decyzji
Model analizuje dostępne informacje i wybiera najlepsze działanie.
Przykład:
- Sytuacja: Otrzymano e-mail z prośbą o informacje o produkcie
- Model decyduje:
- Czy może odpowiedzieć sam (jeśli ma informacje w bazie wiedzy)
- Czy powinien przekazać do człowieka (jeśli pytanie jest złożone)
- Czy powinien zebrać więcej danych przed odpowiedzią
4. Wybór i wywoływanie narzędzi (tools)
Model decyduje, które narzędzia użyć do wykonania zadania.
Przykład:
- Zapytanie: "Wyślij raport sprzedażowy z ostatniego tygodnia do zespołu managementu"
- Model wybiera narzędzia:
- Google Sheets – pobranie danych sprzedażowych
- Python – wygenerowanie wykresu
- Gmail – wysłanie e-maila z raportem
5. Generowanie odpowiedzi
Model tworzy naturalnie brzmiące odpowiedzi dostosowane do kontekstu.
Przykład:
- Dane: Faktura nr 123/2025, kwota 3500 zł, termin płatności: 10 grudnia
- Model generuje: "Faktura nr 123/2025 na kwotę 3500 zł została zarejestrowana. Termin płatności upływa 10 grudnia – to za 5 dni. Czy mam wysłać przypomnienie do działu finansowego?"
6. Zarządzanie kontekstem i pamięcią
Model pamięta wcześniejsze interakcje i odwołuje się do nich.
Przykład:
- Użytkownik (1): "Pokaż mi faktury z listopada"
- Agent: "Znalazłem 12 faktur z listopada. Łączna kwota: 45 000 zł"
- Użytkownik (2): "A ile z nich jest niezapłaconych?"
- Agent (pamięta kontekst): "5 faktur na łączną kwotę 18 500 zł pozostaje niezapłaconych"
Popularne modele językowe używane w agentach AI
OpenAI – rodzina modeli GPT
GPT-4o (GPT-4 Optimized)
- Opis: Najnowsza, zoptymalizowana wersja GPT-4, łącząca szybkość z wysoką jakością
-
Mocne strony:
- Szybsze niż GPT-4, tańsze w użyciu
- Bardzo dobre rozumienie kontekstu
- Świetne w złożonym rozumowaniu
- Obsługa text + obrazy
-
Zastosowania w agentach:
- Analiza dokumentów i obrazów (faktury, umowy, diagramy)
- Złożone zadania wymagające logicznego myślenia
- Obsługa klienta z kontekstem wizualnym
GPT-4 Turbo
- Opis: Szybsza i tańsza wersja GPT-4 z większym oknem kontekstowym (128k tokenów)
-
Mocne strony:
- Bardzo duże okno kontekstowe (może przetworzyć długie dokumenty)
- Dobra jakość przy niższych kosztach
- Szybka odpowiedź
-
Zastosowania w agentach:
- Analiza długich dokumentów (raporty, umowy, protokoły)
- Agenci wymagający dużej pamięci kontekstowej
- Zadania wymagające przetwarzania wielu źródeł jednocześnie
GPT-3.5 Turbo
- Opis: Starszy, tańszy model, wciąż bardzo popularny
-
Mocne strony:
- Niski koszt użycia
- Szybka odpowiedź
- Wystarczający do prostych zadań
-
Zastosowania w agentach:
- Proste automaty odpowiedzi (chatboty FAQ)
- Klasyfikacja tekstu
- Generowanie prostych raportów
GPT-4o-mini
- Opis: Najmniejszy i najtańszy model z rodziny GPT-4, zoptymalizowany pod kątem kosztów
-
Mocne strony:
- Bardzo niski koszt
- Szybka odpowiedź
- Nadal lepsza jakość niż GPT-3.5
-
Zastosowania w agentach:
- Masowa klasyfikacja (e-maile, tickety)
- Proste ekstrakcje danych
- Wstępne filtrowanie przed użyciem droższych modeli
Google – rodzina modeli Gemini
Gemini 1.5 Pro
- Opis: Najpotężniejszy model Google z ogromnym oknem kontekstowym (do 2 milionów tokenów)
-
Mocne strony:
- Gigantyczne okno kontekstowe – może przetworzyć całe książki, wielogodzinne nagrania audio/wideo
- Multimodalność (text, obrazy, audio, wideo)
- Świetne rozumowanie i analiza
- Bardzo dobre w zadaniach wymagających długoterminowej pamięci
-
Zastosowania w agentach:
- Analiza całych projektów (setek plików jednocześnie)
- Przetwarzanie długich nagrań wideo/audio
- Agenci wymagający bardzo długiej pamięci kontekstowej
- Analiza wielowątkowych rozmów i dokumentacji
Gemini 1.5 Flash
- Opis: Szybsza i tańsza wersja Gemini, zoptymalizowana pod kątem wydajności
-
Mocne strony:
- Bardzo szybka odpowiedź
- Niższy koszt niż Pro
- Wciąż duże okno kontekstowe (do 1 miliona tokenów)
- Multimodalność
-
Zastosowania w agentach:
- Szybkie chatboty obsługi klienta
- Real-time analiza strumieni danych
- Agenci wymagający małych opóźnień
- Masowe przetwarzanie z dobrą jakością
Gemini 1.0 Pro
- Opis: Starszy model Google, wciąż dostępny i użyteczny
-
Mocne strony:
- Solidna jakość
- Niższy koszt
- Stabilne API
-
Zastosowania w agentach:
- Standardowe zadania NLP
- Proste agenty konwersacyjne
- Klasyfikacja i ekstrakcja danych
Porównanie: OpenAI vs Google Gemini
| Cecha | OpenAI (GPT) | Google (Gemini) |
|---|---|---|
| Jakość rozumowania | Bardzo wysoka (GPT-4o, GPT-4 Turbo) | Bardzo wysoka (Gemini 1.5 Pro) |
| Okno kontekstowe | Do 128k tokenów (GPT-4 Turbo) | Do 2M tokenów (Gemini 1.5 Pro) |
| Multimodalność | Text + obrazy (GPT-4o) | Text + obrazy + audio + wideo |
| Szybkość | Szybka (GPT-4o, GPT-3.5) | Bardzo szybka (Gemini Flash) |
| Koszt | Średni do wysoki | Niższy (szczególnie Flash) |
| Stabilność API | Bardzo dobra | Dobra, szybko się rozwija |
| Ekosystem narzędzi | Bardzo rozbudowany | Rozwijający się |
Jak wybrać model dla swojego agenta?
Wybierz GPT-4o lub Gemini 1.5 Pro, jeśli:
- Potrzebujesz najwyższej jakości rozumowania
- Agent ma wykonywać złożone zadania wymagające logiki
- Budzet pozwala na wyższe koszty
- Chcesz przetwarzać obrazy, dokumenty wizualne
Wybierz GPT-4 Turbo, jeśli:
- Potrzebujesz dużego okna kontekstowego (długie dokumenty)
- Agent ma przetwarzać wiele źródeł jednocześnie
- Szukasz dobrego balansu między jakością a kosztem
Wybierz Gemini 1.5 Flash, jeśli:
- Potrzebujesz bardzo szybkich odpowiedzi
- Agent ma obsługiwać duży ruch użytkowników
- Chcesz niskie koszty przy dobrej jakości
- Potrzebujesz multimodalności (audio/wideo)
Wybierz GPT-3.5 Turbo lub GPT-4o-mini, jeśli:
- Budżet jest ograniczony
- Zadania są proste (klasyfikacja, FAQ, proste ekstrakcje)
- Agent ma działać masowo (tysiące zapytań dziennie)
Model językowy w n8n
W n8n możesz używać modeli językowych przez:
- AI Agent Node – gotowy węzeł do tworzenia agentów AI
- OpenAI Node – bezpośrednia integracja z GPT
- Google AI Node – integracja z Gemini
- HTTP Request Node – własne wywołania API do modeli
Przykład konfiguracji w n8n:
1. Trigger (Webhook lub Email)
2. AI Agent Node
- Model: GPT-4o lub Gemini 1.5 Flash
- Tools: Gmail, Google Sheets, Slack
- Instrukcja: "Jesteś agentem obsługi klienta..."
3. Response Node
Podsumowanie
Model językowy to serce agenta AI – bez niego agent nie mógłby rozumieć języka naturalnego, podejmować decyzji ani generować odpowiedzi. Wybór odpowiedniego modelu zależy od:
- Złożoności zadań (proste vs złożone rozumowanie)
- Wymagań kontekstowych (krótkie vs długie dokumenty)
- Budżetu (niski vs wysoki koszt)
- Szybkości (real-time vs batch processing)
- Multimodalności (tylko text vs text+obraz+audio+wideo)
Najpopularniejsze wybory to GPT-4o (OpenAI) dla uniwersalnej wysokiej jakości oraz Gemini 1.5 Flash (Google) dla szybkich i tanich aplikacji z dużym kontekstem.
W kolejnym module dowiesz się:
- Jak skonfigurować model językowy w n8n
- Jak zoptymalizować prompty dla agentów AI
- Jak zarządzać kosztami API modeli językowych
- Jak testować i monitorować działanie agentów AI